Contraste entre paradigmas de utilización de datos: El espectro de etiquetado
El éxito en el despliegue de modelos de aprendizaje automático depende críticamente de la disponibilidad, calidad y costo de los datos etiquetados. En entornos donde la anotación humana es costosa, inviable o altamente especializada, los paradigmas estándar se vuelven ineficientes o fallan por completo. Introducimos el espectro de etiquetado, que distingue tres enfoques fundamentales según la forma en que aprovechan la información:Aprendizaje supervisado (AS), , Aprendizaje no supervisado (ANS), y Aprendizaje semi-supervisado (ASS).
1. Aprendizaje supervisado (AS): Alta fidelidad, alto costo
El AS opera sobre conjuntos de datos donde cada entrada $X$ está explícitamente emparejada con una etiqueta de verdad fundamental conocida $Y$. Aunque este enfoque generalmente alcanza la mayor precisión predictiva para tareas de clasificación o regresión, su dependencia de etiquetado denso y de alta calidad es intensivo en recursos. Su rendimiento disminuye drásticamente si hay pocos ejemplos etiquetados, lo que hace que este paradigma sea frágil y a menudo económicamente insostenible para grandes conjuntos de datos en evolución.
2. Aprendizaje no supervisado (ANS): Descubrimiento de estructuras latentes
El ANS opera exclusivamente sobre datos sin etiquetar, $D = \{X_1, X_2, ..., X_n\}$. Su objetivo consiste en inferir estructuras intrínsecas, distribuciones de probabilidad subyacentes, densidades o representaciones significativas dentro del manifiesto de datos. Sus aplicaciones clave incluyen agrupamiento, aprendizaje de variedades y aprendizaje de representaciones. El ANS es altamente efectivo para preprocesamiento e ingeniería de características, proporcionando información valiosa sin depender de entrada humana externa.
Dado: $D_L$: Datos etiquetados. $D_U$: Datos sin etiquetar. $\mathcal{L}_{SL}$: Función de pérdida supervisada. $\mathcal{L}_{Consistencia}$: Pérdida que impone suavidad de predicción en $D_U$.
La forma conceptual de la pérdida total del ASS es una suma ponderada de los dos componentes: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. El escalar $\lambda$ controla el equilibrio entre la fidelidad de las etiquetas y la dependencia de la estructura.